我们在一般的非线性函数近似下研究无奖励增强学习(RL),并在各种标准结构假设下建立样品效率和硬度结果。从积极的一面来看,我们提出了在最小的结构假设下进行样品有效奖励探索的Rfolive(无奖励橄榄)算法,该假设涵盖了先前研究的线性MDPS的设置(Jin等,2020b),线性完整性(线性完整性)( Zanette等人,2020b)和低级MDP,具有未知的表示(Modi等,2021)。我们的分析表明,以前针对后两个设置的易学性或可及性假设在统计上对于无奖励探索而言并不是必需的。在负面方面,我们为在线性完整性假设下的无奖励和奖励意识探索提供统计硬度结果时,当基础特征未知时,显示了低级别和线性完整性设置之间的指数分离。
translated by 谷歌翻译
我们考虑在离线增强学习中有一个具有挑战性的理论问题(RL):仅在功能近似器的可靠性型假设下,通过缺乏足够覆盖的数据集获得样本效率保证。尽管现有的理论已经在可实现性和非探索数据下分别解决了学习,但没有工作能够同时解决这两者(除了我们对详细比较的并发工作除外)。在额外的差距假设下,我们根据边缘化重要性采样(MIS)形成的版本空间(MIS)为简单的悲观算法提供保证,并且保证只需要数据来涵盖最佳策略和功能类,以实现最佳价值和最佳价值和密度比函数。尽管在RL理论的其他领域中使用了类似的差距假设,但我们的工作是第一个识别离线RL中差距假设的实用性和新型机制,其功能近似较弱。
translated by 谷歌翻译
部署效率是许多实际应用程序应用(RL)的重要标准。尽管社区的兴趣越来越大,但对于该问题缺乏正式的理论表述。在本文中,我们从“具有约束的优化”的角度提出了一种用于部署有效的RL(DE-RL)的公式:我们有兴趣探索MDP并在最小值{部署复杂性}中获得近乎最佳的策略。 ,而在每个部署中,策略可以采样大量数据。使用有限的摩尼子线性MDP作为具体的结构模型,我们通过建立信息理论下限,并提供实现最佳部署效率的算法来揭示实现部署效率的基本限制。此外,我们对DE-RL的配方是灵活的,可以作为其他实际相关设置的基础;我们将“安全的DE-RL”和“样本有效的DE-RL”作为两个例子,这可能是值得将来的研究。
translated by 谷歌翻译
建立唱歌语音合成(SVS)系统以合成高质量和表达歌唱语音,其中声学模型在给定音乐分数时产生声学特征(例如,熔点)。以前的歌唱声学模型采用简单的损失(例如,L1和L2)或生成的对抗网络(GaN)来重建声学特征,同时它们分别遭受过平滑和不稳定的训练问题,这阻碍了合成歌曲的自然性。在这项工作中,我们提出了基于扩散概率模型的SVS的衍射指唱者。 Diffsinger是一个参数化的马尔可夫链,可迭代地将噪声转换为麦克波图条件的音乐分数。通过隐式优化变分界,Diffsinger可以稳定地训练并产生现实的输出。为了进一步提高语音质量和速度推断,我们引入了浅扩散机制,以更好地利用简单损失所学到的先验知识。具体地,根据地面真实熔点的扩散轨迹的交叉点,差异指针在小于扩散步骤的总数的浅步骤中开始产生,并且通过简单的熔融谱图解码器预测的那个。此外,我们提出了边界预测方法来定位交叉点并自适应地确定浅步。对中国歌唱数据集进行的评估表明Diffsinger优于最先进的SVS工作。扩展实验还证明了我们对语音致辞任务(DiffSeech)的方法的概括。音频样本可通过\ url {https://diffsinger.github.io}获得。
translated by 谷歌翻译
低级MDP已成为研究强化学习中的表示和探索的重要模型。有了已知的代表,存在几种无模型的探索策略。相反,未知表示设置的所有算法都是基于模型的,因此需要对完整动力学进行建模。在这项工作中,我们介绍了低级MDP的第一个无模型表示学习算法。关键的算法贡献是一个新的Minimax表示学习目标,我们为其提供具有不同权衡的变体,其统计和计算属性不同。我们将这一表示的学习步骤与探索策略交织在一起,以无奖励的方式覆盖状态空间。所得算法可证明样品有效,并且可以适应一般函数近似以扩展到复杂的环境。
translated by 谷歌翻译
本文研究了钢筋学习中随机价值函数的遗为最小化。在表格有限地平线马尔可夫决策过程中,我们引入了一种典型的汤普森采样(TS)-like算法的剪切变体,随机最小二乘值迭代(RLSVI)。我们的$ \ tilde {\ mathrm {o}}(h ^ 2s \ sqrt {at})$高概率最坏情况后悔绑定改善了rlsvi的先前最锐化的最糟糕的遗憾界限,并匹配现有的状态 - 基于最糟糕的TS的遗憾界限。
translated by 谷歌翻译
Value-function approximation methods that operate in batch mode have foundational importance to reinforcement learning (RL). Finite sample guarantees for these methods often crucially rely on two types of assumptions: (1) mild distribution shift, and (2) representation conditions that are stronger than realizability. However, the necessity ("why do we need them?") and the naturalness ("when do they hold?") of such assumptions have largely eluded the literature. In this paper, we revisit these assumptions and provide theoretical results towards answering the above questions, and make steps towards a deeper understanding of value-function approximation.
translated by 谷歌翻译
The exploration of mutual-benefit cross-domains has shown great potential toward accurate self-supervised depth estimation. In this work, we revisit feature fusion between depth and semantic information and propose an efficient local adaptive attention method for geometric aware representation enhancement. Instead of building global connections or deforming attention across the feature space without restraint, we bound the spatial interaction within a learnable region of interest. In particular, we leverage geometric cues from semantic information to learn local adaptive bounding boxes to guide unsupervised feature aggregation. The local areas preclude most irrelevant reference points from attention space, yielding more selective feature learning and faster convergence. We naturally extend the paradigm into a multi-head and hierarchic way to enable the information distillation in different semantic levels and improve the feature discriminative ability for fine-grained depth estimation. Extensive experiments on the KITTI dataset show that our proposed method establishes a new state-of-the-art in self-supervised monocular depth estimation task, demonstrating the effectiveness of our approach over former Transformer variants.
translated by 谷歌翻译
Existing Cross Modal Hashing (CMH) methods are mainly designed for balanced data, while imbalanced data with long-tail distribution is more general in real-world. Several long-tail hashing methods have been proposed but they can not adapt for multi-modal data, due to the complex interplay between labels and individuality and commonality information of multi-modal data. Furthermore, CMH methods mostly mine the commonality of multi-modal data to learn hash codes, which may override tail labels encoded by the individuality of respective modalities. In this paper, we propose LtCMH (Long-tail CMH) to handle imbalanced multi-modal data. LtCMH firstly adopts auto-encoders to mine the individuality and commonality of different modalities by minimizing the dependency between the individuality of respective modalities and by enhancing the commonality of these modalities. Then it dynamically combines the individuality and commonality with direct features extracted from respective modalities to create meta features that enrich the representation of tail labels, and binaries meta features to generate hash codes. LtCMH significantly outperforms state-of-the-art baselines on long-tail datasets and holds a better (or comparable) performance on datasets with balanced labels.
translated by 谷歌翻译
对话中的多模式情绪识别(MERC)是自然语言处理(NLP)的一个积极研究主题,旨在预测人类在多种方式的交流中,e,g。,自然语言和面部手势的情绪状态。无数的隐式偏见和先入为主填补了人类的语言和对话,导致了当前数据驱动的MERC方法是否会产生偏见错误的问题。例如,这种方法可能比男性提供更高的情感分数。此外,现有的DEBIA模型主要集中在性别或种族上,在这种性别或种族中,缓解多重次数仍然是MERC中未开发的任务。在这项工作中,我们采取了第一步来解决这些问题,提出一系列方法来减轻文本话语(即性别,年龄,种族,宗教和LGBTQ+)和视觉表现(即性别和性别和性别和性别和性别和性别)的五种典型偏见。年龄),随后是富含双模式变压器(MMKET)的多次减少和情感知识。全面的实验结果表明了提出的模型的有效性,并证明了Debias操作对MERC的分类性能有很大的影响。我们希望我们的研究将有益于MERC和相关情绪研究中缓解偏见的发展。
translated by 谷歌翻译